Existing learning-based multi-view stereo (MVS) methods rely on the depth range to build the 3D cost volume and may fail when the range is too large or unreliable. To address this problem, we propose a disparity-based MVS method based on the epipolar disparity flow (E-flow), called DispMVS, which infers the depth information from the pixel movement between two views. The core of DispMVS is to construct a 2D cost volume on the image plane along the epipolar line between each pair (between the reference image and several source images) for pixel matching and fuse uncountable depths triangulated from each pair by multi-view geometry to ensure multi-view consistency. To be robust, DispMVS starts from a randomly initialized depth map and iteratively refines the depth map with the help of the coarse-to-fine strategy. Experiments on DTUMVS and Tanks\&Temple datasets show that DispMVS is not sensitive to the depth range and achieves state-of-the-art results with lower GPU memory.
translated by 谷歌翻译
Accurate segmentation of power lines in aerial images is essential to ensure the flight safety of aerial vehicles. Acquiring high-quality ground truth annotations for training a deep learning model is a laborious process. Therefore, developing algorithms that can leverage knowledge from labelled synthetic data to unlabelled real images is highly demanded. This process is studied in Unsupervised domain adaptation (UDA). Recent approaches to self-training have achieved remarkable performance in UDA for semantic segmentation, which trains a model with pseudo labels on the target domain. However, the pseudo labels are noisy due to a discrepancy in the two data distributions. We identify that context dependency is important for bridging this domain gap. Motivated by this, we propose QuadFormer, a novel framework designed for domain adaptive semantic segmentation. The hierarchical quadruple transformer combines cross-attention and self-attention mechanisms to adapt transferable context. Based on cross-attentive and self-attentive feature representations, we introduce a pseudo label correction scheme to online denoise the pseudo labels and reduce the domain gap. Additionally, we present two datasets - ARPLSyn and ARPLReal to further advance research in unsupervised domain adaptive powerline segmentation. Finally, experimental results indicate that our method achieves state-of-the-art performance for the domain adaptive power line segmentation on ARPLSyn$\rightarrow$TTTPLA and ARPLSyn$\rightarrow$ARPLReal.
translated by 谷歌翻译
本文介绍了Kings Arena的荣誉,Kings Arena是基于国王荣誉的强化学习(RL)环境,这是世界上最受欢迎的游戏之一。与以前大多数工作中研究的其他环境相比,我们的人对竞争性强化学习提出了新的概括挑战。与对手竞争的一个代理商是一个多代理的问题;它需要概括能力,因为它具有控制和不同的对手竞争的不同目标。我们描述了国王域名荣誉的观察,动作和奖励规范,并提供了一个基于python的开源界面,以与游戏引擎进行通信。我们为纪念国王竞技场的二十个目标英雄提供了各种任务,并为具有可行的计算资源的基于RL的方法提供了初始基线结果。最后,我们展示了国王竞技场的荣誉和对挑战的可能补救措施所面临的概括挑战。所有软件(包括环境级)均可在https://github.com/tencent-ailab/hok_env上公开获得。该文档可在https://aiarena.tencent.com/hok/doc/上获得。
translated by 谷歌翻译
全景图像可以同时展示周围环境的完整信息,并且在虚拟旅游,游戏,机器人技术等方面具有许多优势。但是,全景深度估计的进度无法完全解决由常用的投射方法引起的失真和不连续性问题。本文提出了SphereDepth,这是一种新型的全景深度估计方法,该方法可直接预测球形网格的深度而无需投影预处理。核心思想是建立全景图像与球形网格之间的关系,然后使用深层神经网络在球形域上提取特征以预测深度。为了解决高分辨率全景数据带来的效率挑战,我们介绍了两个超参数,以平衡推理速度和准确性。在三个公共全景数据集中验证,SphereDepth通过全景深度估算的最新方法实现了可比的结果。从球形域设置中受益,球形部可以产生高质量的点云,并显着缓解失真和不连续性问题。
translated by 谷歌翻译
随着移动摄影技术的迅速发展,主要的手机制造商正在争先恐后地提高设备的拍摄能力和软件的照片美化算法。但是,智能设备和算法的改进不能取代人类的主观摄影技术。在本文中,我们提出了图像的美学语言指导(ALG)。我们根据指导规则是基于摄影模板还是指导图像,将ALG分为ALG-T和ALG-I。无论是ALG-T还是ALG-I,我们都会从三个颜色,照明和图像组成的属性中指导摄影。输入图像和摄影模板或指导图像之间的三个属性的差异用自然语言描述,即美学自然语言指导(ALG)。另外,由于景观图像和肖像图像之间的照明和组成差异,我们将输入图像分为景观图像和肖像图像。 ALG-T和ALG-I分别针对两种类型的输入图像(景观图像和肖像图像)进行美学指导。
translated by 谷歌翻译
近年来,图像生成在提高图像质量方面取得了长足的进步,从而产生了高保真性。另外,最近还有一些建筑设计,它使甘恩能够毫不客气地学习不同层中表示的语义属性。但是,对于与人类美学更一致的面部图像仍然缺乏研究。基于Eigengan [He等,ICCV 2021],我们将增强学习的技术构建到Eigengan的发电机中。该代理商试图弄清楚如何将生成的人脸的语义属性更改为更可取的面部。为此,我们训练了一种可以进行面部美容预测的美学评分模型。我们还可以利用此评分模型来分析面部属性和美学得分之间的相关性。从经验上讲,使用增强学习的现成技术无法正常工作。因此,相反,我们提出了一种新的变体,该变体纳入了近年来在强化学习社区中出现的成分。与原始生成的图像相比,调整后的图像显示了有关各种属性的明确区别。实验结果使用思维镜,显示了所提出的方法的有效性。更改的面部图像通常更具吸引力,并有明显改善的美学水平。
translated by 谷歌翻译
联合学习(FL)和分裂学习(SL)是两种新兴的协作学习方法,可能会极大地促进物联网(IoT)中无处不在的智能。联合学习使机器学习(ML)模型在本地培训的模型使用私人数据汇总为全球模型。分裂学习使ML模型的不同部分可以在学习框架中对不同工人进行协作培训。联合学习和分裂学习,每个学习都有独特的优势和各自的局限性,可能会相互补充,在物联网中无处不在的智能。因此,联合学习和分裂学习的结合最近成为一个活跃的研究领域,引起了广泛的兴趣。在本文中,我们回顾了联合学习和拆分学习方面的最新发展,并介绍了有关最先进技术的调查,该技术用于将这两种学习方法组合在基于边缘计算的物联网环境中。我们还确定了一些开放问题,并讨论了该领域未来研究的可能方向,希望进一步引起研究界对这个新兴领域的兴趣。
translated by 谷歌翻译
随着社交软件和多媒体技术的持续发展,图像已成为传播信息和社交的重要载体。如何全面评估图像已成为最近研究的重点。传统的图像美学评估方法通常采用单个数值总体评估评分,该评估具有一定的主观性,无法再满足更高的美学要求。在本文中,我们构建了一个称为Aesthetic混合数据集的新图像属性数据集,该数据集具有属性(AMD-A)和设计融合的外部属性功能。此外,我们还提出了一种有效的方法,用于在混合多属性数据集上进行图像美学属性评估,并通过使用ExtisticNet-B0作为骨干网络来构建多任务网络体系结构。我们的模型可以实现美学分类,整体评分和属性评分。在每个子网络中,我们通过ECA通道注意模块改进特征提取。至于最终的整体评分,我们采用了教师学习网络的想法,并使用分类子网络来指导美学的整体细粒回归。实验结果,使用思维螺旋式的结果表明,我们提出的方法可以有效地改善美学整体和属性评估的性能。
translated by 谷歌翻译
应用用于交通信号控制(TSC)的增强学习(RL)技术的一般趋势。最近,大多数研究都注意神经网络设计,很少集中在国家代表上。国家代表的设计是否对TSC产生了良好的影响?在本文中,我们(1)提出了一种有效的国家代表,作为具有密集知识的车辆的队列长度; (2)提出了一种基于我们的国家表示方法的TSC方法,称为Maxqueue; (3)通过基于传统和最新RL模型的QL-Xlight模板,开发一个名为QL-Xlight的基于QL-Xlight的TSC模板,以及QL-FRAP,QL-Colight和QL-DQN。通过对多个现实世界数据集的全面实验,我们证明:(1)我们的Maxqueue方法优于最新的基于RL的方法; (2)QL-FRAP和QL-COLIGHT实现了一种新的最先进(SOTA)。通常,具有密集知识的状态表示对于TSC方法也是必不可少的。我们的代码在github上发布。
translated by 谷歌翻译
知识图(KGS)代表作为三元组的事实已被广泛采用在许多应用中。 LIGHT预测和规则感应等推理任务对于KG的开发很重要。已经提出了知识图形嵌入式(KGES)将kg的实体和kg与持续向量空间的关系进行了建议,以获得这些推理任务,并被证明是有效和强大的。但在实际应用中申请和部署KGE的合理性和可行性尚未探索。在本文中,我们讨论并报告我们在真实域应用程序中部署KGE的经验:电子商务。我们首先为电子商务KG系统提供三个重要的探索者:1)注意推理,推理几个目标关系更为关注而不是全部; 2)解释,提供预测的解释,帮助用户和业务运营商理解为什么预测; 3)可转让规则,生成可重用的规则,以加速将千克部署到新系统。虽然非现有KGE可以满足所有这些DesiderATA,但我们提出了一种新颖的一种,可说明的知识图表注意网络,通过建模三元组之间的相关性而不是纯粹依赖于其头实体,关系和尾部实体嵌入来预测。它可以自动选择预测的注意力三倍,并同时记录它们的贡献,从该解释可以很容易地提供,可以有效地生产可转移规则。我们经验表明,我们的方法能够在我们的电子商务应用程序中满足所有三个DesiderATA,并从实际域应用程序中倾斜于数据集的典型基线。
translated by 谷歌翻译